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基于 多 层次 注意 力 机 制 一 维 DenseNet 的 音频 事件 检测 
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(武汉 理工 大 学 计算 机 科学 与 技术 学 院 , 武汉 430070) 


摘 要 : 在 音频 事件 检测 任务 中 ， 目 标 音频 易 受 背景 噪声 等 因素 的 干扰 ， 并 且 其 在 音频 信号 流 中 存在 的 比例 不 高 ， 
针对 这 些 问题 ,提出 一 种 多 层次 注意 力 机 制 一 维 DenseNet(dense convolutional age babel 模型 。 首 先 ， 使 
用 一 维 DenseNet 模型 进行 帧 级 检测 能 有 效 地 检测 音频 事件 发 生 的 开始 和 结束 时 间 ; 其 次 ， 在 一 维 DenseNet 模型 中 
引入 多 层次 注意 力 机 制 ， 这 使 得 不 同 模块 的 感知 特性 随 着 网 络 层 数 的 加 深 而 自 适应 地 变 化 。 因 此 ， 模 型 可 以 在 不 同 
的 网 络 层次 自动 选择 和 关注 重要 的 目标 帧 而 抑制 不 相关 的 背景 帧 。 在 DCASE 2017 任务 2 的 开发 数据 集 上 的 实验 表 
明 ， 该 方法 的 整体 性 角 E 较 传统 的 深度 度 学 习 方 法 有 进一步 提高 。 
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Sound event detection based on ld DenseNet with multi-level attention 


Yang Lyuxiang, Hu Yan‘ 
(School of Computer Science & Technology, Wuhan University of Technology, Wuhan 430070, China) 


Abstract: In sound event detection tasks, the target event was susceptible to background noise, and was not present in a 
significantly high portion of time frames of each signal. To solve the problem, this paper proposed a new method of sound 
event detection based on one-dimensional Dense Convolutional Network(DenseNet) with multi-level attention mechanism. 
Firstly, it used the one-dimensional DenseNet for frame-wise detection, which was effective in finding the precise onset and 
offset time. Then, it embedded the multi-level attention mechanism in the one-dimensional DenseNet model, which made 
the attention-aware features from different modules change adaptively as layers went deeper. Therefore, the model could 
automatically select and attend on important frames for the targets while ignoring the unrelated parts (e. g. , the background 
noise segments) . Finally, this work evaluated the model using DCASE 2017 Task 2 development dataset. Results show that 
the overall performance of the method has further improved than the conventional deep learning method. 

Key words: sound event detection; deep learning; DenseNet; multi-level attention mechanism 


0 as 标签 的 深度 神经 网 络 (deep neural network, DNN) 模型 检测 
一 音频 样本 中 重 炙 的 音频 事件 。 但 是 由 于 传统 的 深度 学 习 模 型 

音频 事件 检测 (sound event detection, SED) 器 是 计算 机 听 随 着 网 络 层 数 越 来 越 深 架构 越 来 越 复杂 ， 会 引起 梯度 消失 

觉 场景 分 析 (computational auditory scene analysis, CASA) P! 问题 。 为 了 缓解 音频 事件 检测 中 梯度 消失 的 问题 Dang 等 人 
r= 领域 的 一 种 特定 任务 ， 它 根据 音频 流 的 声学 内 容 对 音频 中 的 [011 将 目前 最 先进 的 图 像 分 类 网 络 模型 DensetNet023 应 用 于 音 
事件 进行 分 类 和 定位 ， 目 的 是 为 每 个 被 检测 到 的 事件 分 配 一 频 事件 检测 ,DensetNet 的 核心 思想 是 建立 了 卷 积 层 的 前 层 与 
个 类 标签 以 及 确定 音频 事件 发 生 的 起 始 和 结束 时 间 ， 进 而 达 后 层 之 间 的 密集 连接 ， 即 保证 在 网 络 中 层 与 层 之 间 最 大 程度 
到 感知 和 理解 周围 环境 的 目的 。 音 频 事 件 检 测 的 应 用 场景 十 的 信息 传输 的 前 提 下 ， 直 接 将 所 有 层 连 接 起 来 ， 这 不 仅 缓解 
分 广泛 ,包括 鸟 声 检测 B]、 音 频 监控 内 以 及 多 媒体 事件 检测 号 了 梯度 消失 问题 , 而且 有 利于 提取 音频 信号 更 深层 次 的 特征 
等 ， 因 此 ， 音 频 事 件 检测 相关 的 研究 受到 越 来 越 多 的 研究 机 增强 了 特征 之 间 的 传递 并 提高 了 系统 的 性 能 。 


T 


f 


构 以 及 学 者 的 青睐 。 例 如 ， 音 频 事件 检测 与 分 类 比赛 在 音频 事件 检测 中 ， 为 了 解决 背景 噪声 对 目标 事件 的 干 
(detection and classification of acoustic scenes and events, $i, Phan 等 人 [改进 了 DNN 中 权重 损失 函数 ， 将 目标 音频 
DCASEIJ) 自 2013 年 举办 以 来 吸引 了 大 量 的 参与 者 。 事件 与 背景 音频 事件 分 为 前 景 类 与 背景 类 ， 通 过 权重 函数 中 

前 ， 真 实 环境 下 的 音频 事件 检测 相关 的 研究 有 很 多 ， g (J 


的 惩罚 因子 抑制 背景 噪声 ， 但 需要 人 工 调 节 权 重 损失 函数 各 
传统 的 机 器 学 习 方法 如 隐 马 尔 可 夫 模 型 外 、 非 负 和 矩阵 分 解 门 惩罚 因子 ， 增 加 了 不 必要 的 调 参 工作 。 随 着 基于 注意 力 机 秆 
以 及 随机 森林 四 等 。 但 在 传统 的 机 器 学 习 方 法 中 ， 往 往 需 要 的 神经 网 络 被 广泛 应 用 于 文本 分 类 0 以 及 情感 分 类 05 16) 

复杂 的 特征 工程 提取 音频 信号 特征 。 为 了 解决 以 上 缺点 ， 有 务 ， 也 有 学 者 将 注意 力 机 制 引 入 音频 事件 检测 任务 中 。 如 徐 
学 者 引入 深度 学 习 来 进行 音频 事件 检测 。 文 献 [9] 提 出 一 种 深 等 人 [7 在 音频 标注 任务 中 ， 在 卷 积 门限 循环 神经 网 络 
度 卷 积 神经 网 络 (convolutional neural networks，CNN) 的 端 到 (convolutional gated recurrent neural network, CGRNN) 基 础 上 
央 的 学 习 框架 自动 从 音频 样本 数据 中 学 习 特征 ， 克 服 了 传统 引入 了 注意 力 机 制 增强 目标 音频 事件 的 权重 以 及 抑制 不 相关 
机 器 学 习 需 要 手工 提取 音频 特征 的 缺点 。Cakir 等 人 HM 用 多 的 背景 音频 噪声 。Turab 等 人 0 将 最 新 的 胶 融 网 络 〈capsules 


Ea 
PP o 


a 
= 


fa 


所 


收 稿 日 期 : 2018-11-16; 修 回 日 期 : 2019-01-21 ”基金 项 目 : a aD (2017CFA012) 
作者 简介 : 杨 吕 祥 (1992-)， 男 ， 湖 北 仙桃 人 ， 硕 士 ， 主 要 研究 方向 为 音频 信号 检测 ; WR (1965-), (通信 作者 )， 湖 北 武市 人 ， 教 授 ， 硕 时 ， 
博士 ， 主 要 研究 方向 为 信息 检索 、 数 据 挖 据 、 通 信 网 络 (huyan@whut.edu.cn). 


201905.00038v1 


chinaXiv 


录用 定稿 Watt, F: 


等 
networks, CapsNet) 模型 与 注意 力 机 制 结合 学 习 音频 信号 最 
显著 的 特征 来 检测 大 规模 弱 标 签 音频 事件 ， 在 DCASE 的 任 
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传统 的 卷 积 神经 网 络 ，DenseNet 模型 建立 了 卷 积 神经 网 络 的 
前 层 与 后 层 之 间 的 密集 连接 ， 即 在 保证 网 络 层 与 层 之 间 最 大 


务 中 取得 了 突破 性 的 成 绩 。Kong 等 人 [9 提出 将 多 示例 学 习 
模型 与 单 层 注意 力 机 制 结合 在 Google 发 布 的 大 规模 音频 数 


程度 的 信息 传输 的 前 提 下 ， 直 接 将 所 有 的 层 连接 起 来 。 在 传 
统 的 卷 积 神经 网 络 中 ， 如 果 网 络 有 工 层 ， 那 么 就 会 有 工 个 连 


据 集 上 的 性 能 超越 了 Google 发 布 的 基准 系统 ,然而 单 层 注意 
力 模块 忽略 了 中 间 神 经 网 络 的 大 量 信息 ， 因 此 ，Lee 等 人 P 
通过 连接 不 同 中 间 神 经 网 络 层 提高 了 分 类 器 的 性 能 。 


接 。 但 是 在 DenseNet 中 ， 工 层 网 络 有 ZL*(L+D/2 个 连接 ， 简 
言 之 ， 每 一 层 的 输入 来 自前 面 所 有 层 的 输出 。 例 如 ， 第 0 层 
到 LL-1 层 的 输出 特征 图 通道 数目 分 别 为 罗 ,%…, 罗 1， 则 第 工 层 


受 网 络 模型 DensetNet 以 及 注意 力 机 制 的 启发 ， 在 一 维 
DenseNet 网 络 模型 中 引入 了 多 层次 注意 力 机 制 ， 这样 既 能 提 


计算 方法 如 下 : 
x = H, (m,n, Xi )) (1) 


取 音 频 信号 更 深层 次 的 特征 ， 又 能 自动 选择 和 关注 重要 的 


居中: [xX er ta] 表示 将 0 层 到 7-1 层 的 输出 特征 图 做 通道 


标 音频 帧 。 由 此 ， 本 文 提 出 了 多 层次 注意 机 制 一 维 稠密 连接 
卷 积 神经 网 络 (multi-level attention 1d densely connected 
convolutional networks ， MLA-DCNNs ) 模型 。 首 先 ， 

MLA-DCNNs 模型 以 一 维 对 数 梅 尔 频谱 作为 网 络 的 输入 特征 ， 
并 采用 一 维 DenseNetI2 模 型 方法 进行 帧 级 检测 , 使 得 模型 不 
仅 能 有 效 的 检测 音频 事件 发 生 的 起 始 时 间 ， 而 且 有 利于 音频 
特征 的 重用 ， 降 低 了 网 络 结构 的 参数 数量 ; 其次， 在 一 维 
DenseNet 网 络 模型 中 引入 了 多 层次 注意 力 机 制 。 多 层次 注意 
力 机 制 由 多 个 堆 受 的 注意 力 笛 密 模块 和 全 局 注意 力 机 制 组 成 ， 
其 中 注意 力 稠密 块 是 在 DensetNet 的 稠密 块 中 引入 局 部 注意 
力 机 制 ， 全 局 注意 力 机 制 跨越 多 个 稠密 块 。 因 此 ， 在 
MLA-DCNNs 中 不 同 模块 的 注意 力 感知 特性 随 着 网 络 层 数 的 
加 深 而 自 适应 地 变化 ， 模 型 可 以 在 不 同 的 网 络 层次 自动 选择 
和 关注 重要 的 目标 帧 而 抑制 不 相关 的 背景 帧 。 在 通用 的 
DCASE 2017 数据 集 上 实验 ， 并 验证 了 MLA-DCNNs 的 有 效 
性 。 


1 ”音频 事件 检测 模型 


为 了 关注 更 多 有 价值 的 音频 信息 ， 本 文 提 出 了 多 层次 的 
注意 力 机 制 一 维 DenseNet 模型 MLA-DCNNs 对 音频 事件 进 
行 检测 。MLA-DCNNSs 模型 主要 是 由 四 个 主要 的 模块 组 成 : 
a) 音 频 特 征 的 提取 模块 ，b) 一 维 的 DensetNet 网 络 模块 ，c) 多 
层次 注意 力 模 块 , 即 一 维 DenseNet 模型 中 引入 局 部 注意 力 机 
制 模块 和 全 局 注意 力 机 制 模块 ，d) 分 类 模块 .MLA-DCNNs 
模型 结构 如 图 1 所 示 。 

1.1 音频 特征 

在 音频 事件 检测 中 ,对 数 梅 尔 谱 特 征 0% 5 作为 音频 特征 
的 深度 神经 网 络 取得 很 好 的 效果 。 因 此 ， 本 文 用 对 数 梅 尔 谱 
特征 作为 网 络 模型 的 输入 特征 .为 了 提取 对 数 梅 尔 谱 , 首先 ， 
将 音频 样本 进行 加 窗 、 分 帧 ， 其 中 每 帧 帧 长 设置 为 40 ms, 
帧 移 设置 为 20 ms; 其 次 ， 通 过 短 时 傅 里 叶 变 换 将 时 域 信号 
转换 为 频 域 信号 得 到 频谱 ; 然后 ， 将 每 一 帧 的 频谱 通过 128 
个 Mel 滤波 器 组 得 到 梅 尔 频 谱 ; 接着 ， 将 梅 尔 频 谱 在 幅 值 方 
向 取 对 数 得 到 一 维 的 对 数 梅 尔 谱 特征 ;最 后 ， 对 训练 数据 集 
的 样本 特征 进行 归 一 化 处 理 ， 其 中 均值 为 0， 标准 差 为 1。 
1.2 一 维 DenseNet 网 络 层 

SED 任务 中 , 很 多 研究 者 利用 类 似 图 像 分 析 的 方式 使 用 
二 维 的 音频 特征 ， 如 声 谱 图 、MFCCIIO、 梅 尔 频谱 [7 等 作为 
卷 积 神经 网 络 模型 的 输入 特征 ， 部 分 学 者 使 用 了 三 维 音频 特 
征 03] 提 取 谱 图 中 有 意义 的 频谱 信息 以 及 时 间 位 置信 息 。 然 而 
二 维 的 CNNs 模型 方法 分 析 的 是 块 级 而 不 是 帧 级 音频 特征 ， 
在 音频 事件 检测 中 需要 准确 的 预测 事件 发 生 的 时 间 位 置 ， 
此 ， 相 比 二 维 频谱 特征 ， 一 维 的 频谱 特征 更 有 能 有 效 地 检测 
音频 事件 发 生 的 时 间 位 置 。 

为 了 有 效 的 检测 音频 事件 发 生 的 时 间 位 置 以 及 更 充分 地 
利用 帧 级 音频 特征 ， 本 文采 用 一 维 的 DensetNet 模型 。 相 比 
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的 合并 ; Hi(®) 代表 三 种 操作 的 组 合 函数 ， 分 别 是 batch 
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图 1 多 层次 注意 力 机 制 一 维 DenseNet 音频 事件 检测 模型 
Fig. 1 


Framework of proposed Id densenet with multi-level attention 
for sound event detection 

正 是 由 于 DenseNet 网 络 模型 采用 这 种 密集 连接 方式 , 使 

得 模型 具有 以 下 优点 : 9 缓解 了 梯度 消失 ; b) 增 强 了 特征 的 
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传递 ，c) 更 有 效 地 利用 了 特征 ; d) 减 少 了 网 络 参数 数量 。 的 全 局 注意 力 因 子 。 在 音频 事件 检测 中 ， 如 果 存 在 目标 音频 

因此 , 本文 提出 了 用 一 维 DenseNet 网 络 模型 提取 音频 帧 。” 事件 ， 则 全 局 注意 力 因子 Zows 代表 的 权重 值 趋 近 于 1, AU 
级 特征 ,一 维 DenseNet 模型 主要 由 若干 个 稠密 块 (dense block) HEF 0。 全 局 注意 力 机 制 通过 全 局 注意 力 因子 与 最 后 一 个 


和 连接 两 个 连续 稠密 块 的 转换 层 (transition layer) 组 成 。 每 个 ”DenseNet 块 输出 的 特征 图 做 元 素 积 运算 实现 的 ,表达 式 如 下 : 
稠密 块 由 若干 个 连续 的 BN? ReLUPA, 1x1 以 及 3x1 卷 积 H(t) = Yip (t)* Zorn) (5) 
层 组 成 。 其 中 BNP9 是 为 了 降低 样本 间 的 差异 ， 其 对 每 一 层 其 中 : HQ 表示 第 1 帧 相对 于 整个 音频 块 的 重要 程度 。 因 此 
的 输入 作 标 准 化 处 理 ， 使 样本 输入 的 均值 趋 近 于 0， 标 准 差 ” 在 音频 片段 中 ， 全 局 注意 力 机 制 可 以 通过 全 局 注意 力 因 子 
IEF 1。 ReLUE 为 网 络 的 激活 函数 ,。 稠密 块 中 每 层 输 出 的 Zo 对 输出 的 全 局 特征 加 权 来 选择 重要 的 目标 音频 事件 。 另 
特征 图 需要 在 通道 的 维度 上 进行 合并 ， 因 此 每 个 稠密 块 中 的 “外 ， 在 音频 事件 检测 中 ， 输 入 的 音频 信号 越 长 意味 着 输入 音 
特征 图 大 小 需 保 持 一 致 。 在 稠密 块 中 ， 后 面 层 的 输入 来 自前 RERS , 而 音频 样本 中 的 背景 噪声 可 能 导致 过 拟 合 问题 ， 
而 所 有 层 的 输出 ， 因 此 即使 稠密 块 中 每 层 输出 的 特征 图 数 


通过 引入 的 注意 方法 可 以 缓解 过 拟 合 问题 。 

k 很 小 , 但 是 做 通道 连接 之 后 , 第 上 层 的 通道 数 操 +kxKk-D 仍 ( Tmi ù 
然 很 大 ， 其 中 心 表示 输入 层 的 特征 图 数目 。 为 了 减少 输入 特 xX) 
征 图 的 数量 以 及 融合 各 个 通道 的 特征 ， 在 稠密 块 中 采用 1x1 
卷 积 层 。 转 换 层 由 BNBCU 层 、1xl 卷 积 层 以 及 2xl 的 平均 池 化 
层 组 成 。 为 了 进一步 提高 模型 的 紧凑 型 ， 减 少 转换 层 中 的 特 
征 图 数量 ， 在 转换 层 采用 1x1 的 卷 积 层 降低 特征 图 的 数目 ， 
例如 ， 一 个 稠密 块 中 包含 mm 个 特征 图 ， 经 1x1 的 卷 积 层 后 生 
成 L9mj] 输 出 特征 ， 其 中 0<0<1 称 为 压缩 因子 。 转换 层 中 的 池 [Sigmoid | 
化 层 降低 了 特征 图 的 尺寸 。 Z arnt) Zen) 
13 多 层次 注意 力 机 制 模块 

多 层次 注意 力 机 制 模型 由 不 同 的 模块 堆 秋 而 成 ， 不 同 模 
块 的 注意 力 感知 特性 随 着 层 数 加 深 而 自 适应 地 变化 ， 因 而 模 
型 可 以 自动 选择 和 关注 重要 的 目标 帧 而 忽略 不 相关 的 背景 帧 。 
而 全 局 注意 力 模块 为 了 获取 全 局 显著 特征 。 l 元 出 
Te 注意 意 力 稠密 模块 Attention oa Block1 

注意 力 稠密 模块 (attention dense block, ATT-DB) H — H 
稠密 块 以 及 Sigmoid 层 组 成 ， 如 图 2 所 示 。 由 于 每 个 注意 力 aia 
稠密 模块 结构 相似 ， 所 以 主要 分 析 第 一 个 模块 。 第 : 帧 的 注 Pooling | 
意 系数 Zam 表示 当前 帧 的 重要 程度 ， 则 有 Zam 表达 式 为 xo 

Zarri (©) = Warr * X (P) + Darr) (2) 
其 中 : XC) 表示 第 ! 帧 的 输入 特征 ; 5 表示 Sigmoid 函数 ; War Batch Norm 
表示 ATT-DB 的 权 值 向 量 以 及 表示 ATT-DB RER: Zn 表 rm 
示 第 上 帧 注意 力 因 子 , 因 此 只 由 全 连接 层 与 Sigmoid 层 组 成 。 
将 预测 的 注意 力 因 子 与 一 维 稠密 块 的 输出 做 元 素 积 运算 来 抑 [Batch Nom] 
制 背景 噪声 ， 计 算 公式 如 下 ; Sigmoid 
Yom (©) = Zarr C) * Yann) (3) Zar) 

其 中 :om 表示 一 维 稠密 连接 模块 输出 ;om 表示 加 权 后 的 ‘Batch Norm | 
输出 特征 。 这 种 注意 力 机 制 加 权 过 程 可 以 选择 重要 的 目标 音 
频 帧 ， 同 时 抑制 不 相关 的 帧 。 

局 部 注意 力 模块 是 由 多 个 ATT-DB EBM. FARK L Concat | 
St PSR, ER AER ER a A A Yom 
化 特征 ， 使 不 同 模块 的 注意 力 感知 特性 随 着 层 数 加 深 而 自 适 AT 
应 地 变化 ， 因 而 模型 可 以 在 不 同 的 层次 自动 选择 和 关注 重要 | ra 
的 目标 帧 而 抑制 不 相关 的 背景 噪声 。 on 
13.2 全 局 注意 力 机 制 

堆 疤 网 络 结构 可 以 使 不 同 层次 的 注意 力 机 制 关 注 不 同 层 Pooling 
次 的 音频 特征 ， 而 全 局 注意 力 机 制 是 为 了 获取 全 局 的 显著 特 7 M 7 
征 。 全 局 注意 力 因 子 跨越 多 个 注意 力 稠密 模块 与 最 后 一 个 注 (ss= SUE as) 
意 力 稠密 模块 输出 的 特征 图 做 元 素 积 运算 。 全 局 注意 力 机 制 图 2 多 层次 注意 力 机 制 的 模块 
由 全 连接 层 与 Sigmoid 层 组 成 ， 如 图 2 所 示 。 Fig.2 The Architecture of the multi-level attention model 

全 局 注意 力 因子 计算 公式 与 ATT-DB 模块 中 注意 力 因 子 1.4 音频 事件 分 类 模块 
公式 类 似 ， 全 局 注意 力 因 子 Zows 计算 公式 如 下 : 分 类 层 由 全 连接 层 、Relu、 全 连接 以 及 Sigmoid 输出 单 

Zeus (t) = (Wors * X(t) + Dern) (4) ”元 组 成 。 多 层次 注意 力 机 制 层 输出 的 特征 传 入 到 前 馈 层 中 ， 

其 中 : 5 表示 Sigmoid 函数 ， Was 表示 全 局 注意 力 机 制 的 权 前 馈 层 将 更 新 后 的 特征 输入 到 Sigmoid 单元 来 计算 目标 音频 
值 向 量 ， bas 表示 全 局 注意 力 机 制 的 偏 移 量 ， Zors 表示 第 ! 帧 事件 出 现 的 概率 ， 即 当 目 标 音 频 事件 发 生 时 Sigmoid 单元 输 
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出 值 趋 近 于 1, 否则 趋 近 于 0。 因 此 分 类 层 的 输出 表示 目标 事 
件 在 音频 样本 中 存在 的 概率 。 为 了 对 模型 进 
预测 音频 事件 的 概率 进行 二 值 


A prob 时 ， 概率 为 l, 表示 事件 存在 ; 


在 。 


2 ”音频 事件 检测 模型 训练 算 


音频 事件 检测 
音频 事 伯 


算法 


模型 训练 算法 如 下 所 示 。 


输入 : 原始 音频 流 。 


输出 : 收敛 的 MLA- 


DCNNs 模型 。 


检测 模型 MLA-DCNNs 训练 算法 


行 评估 ， 需 要 将 
此 处 理 ， 当 预测 值 大 于 阔 值 
否则 概率 为 0， 事件 不 存 


// 构 建 数据 集 

1)QN<@ 

2) for r = ð to N-1 do //N 表示 音频 流 的 总 数 

3) X, =log— amplitude _ mel — spectrogram(audio(r).wav) /* #2145 


频 流 的 对 数 梅 尔 谱 
表示 第 1 帧 */ 


PE: X, = {10,1,…,%1} ， 其 中 


t 


4) Y, = get _label(audio(r).wav) /* 根 据 音频 流 起 始 和 结束 时 间 


截 提取 对 应 帧 级 标签 : 


Y={y0, NoMa} > 


示 音 频 事 件 发 生 ， 数 值 6 表示 音频 事件 未 发 生 */ 
5) 将 一 个 训练 实例 {X,Y} WA Q 


6) end for 
// 训 练 模型 
7 


— 


初始 化 MLD-DCNNs 模型 所 有 的 参数 Qu ， 


AR Q, 和 测试 集 Q, 


8) do 


9) WIARA, 4 
if(DenseNet 块 ) 
for i = @ to M-1 do 


10) 
11) 
12) 


if (iI) 


// 上 表示 第 i 个 ATT-DB 块 的 卷 积 层 数 


y sf0J} ， 其 中 数值 1 表 


将 数据 集 随机 划分 为 训 


FP 随机 选取 一 个 batch 的 示例 Q, 
// 表 示 一 维 DensetNet 层 


任务 2 稀 琉 音 频 事件 检测 的 开发 数据 集 。 数 据 集 包括 三 类 
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实验 数据 : 本 次 实验 采用 的 数据 集 来 源 于 DCASE2017" 


mr 二 


bye HS 


F 以 及 作为 背景 的 日 常 声学 场景 。 在 数据 身 


Ph， 目标 音频 导 


BA 
EE HR LSS HARRY E RIE HR, 
景 音频 集 来 自 “TUT 声学 场景 2016 数据 集 ” 的 一 部 分 ， 
15 个 不 同音 频 场 景 。 从 freesound.org 上 下 载 三 个 日 


Z 


示 类 的 孤立 事 
玻璃 碎 裂 声 (96 个 训练 样本 ，43 个 测试 样本 )， 枪 声 (134 个 训 
练 样本 , 53 个 测 斌 样本) 与 背景 音频 数据 集 混合 生成 3 000 个 
混合 样本 ， 二 


E: BBL SRF (106 个 训练 样本 ,42 个 测试 样本 )， 


中 训练 集 1 500 个 ， 测 试 集 1500 个 ， 在 训练 


集 与 测试 集中 每 类 事件 分 别 有 500 个 样本 。 混 合 数据 集 的 事 
件 一 背景 比率 为 -6 dB、0 dB、6 dB。 在 每 个 事件 类 的 500 个 


混合 样本 中 ， 其 中 一 半 样 本 仅 含 背景 音频 。 


3.2 评价 指标 
本 实验 使 用 了 Fl 值 以 及 错误 率 (error rate，ER) 作 为 评价 
fein), Fl 值 与 错误 率 的 计算 公式 如 下 : 
2PR 
“PLR (6) 
FN + FP 
ER=— (7) 


其 中 : PAR 分 别 表 示 准 确 率 和 召回 率 ， 其 计算 公式 如 下 : 


TP 
P= 
TP + FP (8) 
TP 
R= TP+ FN ©) 


其 中 : TP 表示 系统 准确 的 预测 了 目标 事件 存在 于 音频 片段 中 


并 且 成 功 预测 出 事件 发 生 的 起 始 位 置 ， 成 功 预测 出 目标 事件 
的 起 始 时 间 定 义 为 预测 值 与 实际 值 误 差 范 围 为 500 ms; FP 


//M 表示 注意 力 稠密 块 


13) for j = @ to L-1 do 

14) 连续 BN-ReLU-Conv( 1x1 )-BN-ReLU-Conv( 3x3 ) 
操作 

15) end for 

16) end if 

17) if( 局 部 注意 力 块 ) // 计 算 局 部 注意 力 因 子 

18) 根据 公式 (2) 计 算 注 意 力 因子 Zao 

19) end if 

20) 根据 公式 (3) 结 合 局 部 注意 力 因 子 Zao 计算 正 向 
ATT-DB 块 的 输出 特征 Yans C) 

21) end for 

22) end if // 局 部 注意 力 加 权 结 束 

23) ”if( 全 局 注意 力 模块 ) // 全 局 注意 力 加 权 

24) 根据 公式 (4)(5) 结 合 全 局 注意 力 因子 Zor 计算 正 向 全 局 注 
意 力 块 的 输出 特征 AO) 

25) end if // 全 局 注意 力 加权 结 束 

26) ”最 后 ， 通 过 二 值 交 义 焙 损失 函数 求 得 误差 ， 更 新 全 局 参数 Oy 


27) }while( 满 足 优化 条 件 则 停止 ) 


3 ”实验 
3.1 


实验 数据 与 实验 环境 


实验 环境 : 操作 系统 windows7，64 位 ; 


Cor-e™i5-4200M; 
Python3.5 版 。 


内 存 大 小 为 8 GB; 编程 


处 理 器 Inter® 
FEF 台 Pycharm, 


表示 音频 样本 中 不 存在 目标 音频 事件 ， 而 系统 预测 目标 事件 
存在 ; 
正确 预测 目标 事件 存在 ; 


和 
3.3 


FN 表示 音频 样本 中 存在 目标 音频 事件 ， 而 系统 未 能 
N 表示 测试 数据 集中 样本 总 数 。 


参数 设置 
本 文 使 用 keras 和 tensorflow 来 搭建 模型 。 在 实验 中 使 用 


了 两 个 注意 力 稠密 模块 .ATT-DB 模块 的 卷 积 核 大 小 为 3x1， 


通过 调节 注意 力 笛 密 模 块 中 卷 积 核 的 个 数 以 及 卷 积 层 的 数量 


来 优化 网 络 模型 。 连 接 两 
1x1 卷 积 核 以 及 2x1 平 均 池 化 层 组 成 。 转 换 层 模块 的 压缩 因 于 


个 注意 力 稠密 模块 的 转换 层 模块 由 


9 设置 为 0.5。 在 训练 阶段 使 用 二 值 交叉 灶 损 失 函 数 作为 损失 


函数 ， 为 了 优化 损失 函数 ， 
作为 优化 器 ，mini-batch 设 


使 用 Adam(adaptive momentum) 
为 256。 为 了 防止 过 拟 合 ,在 每 


个 卷 积 层 后 使 用 Dropout 层 ， 其 值 为 0.2。 
在 分 类 阶段 ， 预 测 目 标 事件 是 否 发 生 的 阔 值 为 www ， 其 


范围 为 0<sawmw<l ， 采 用 步 长 为 0.1 的 网 格 搜索 方法 获取 最 优 


的 Fl 值 来 计算 阔 值 vv 。 如 图 


3 所 示 , RE ww 取 0.7 时 ， 


可 得 到 最 优 的 Fl 值 ， 其 值 为 83.2% 。 


0.10.20.30.4040.60.70.80.9 
ey 1B 


图 3 Fl BEREZKA 


Fig.3 Trend diagram of F-score changing with threshold value 
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3.4 实验 对 比 
将 本 文 提 出 的 多 层次 注意 力 机 制 一 维 DenseNet 方法 
MLA-DCNNs 与 以 下 几 种 方法 进行 实验 : 
a)Baselinel!]。 基准 系统 (DCASE baseline) 是 DCASE 2017 
挑战 赛 官方 提供 的 基本 方法 ， 主 要 由 含有 两 个 隐藏 层 的 多 层 
感知 机 模型 组 成 ， 其 中 每 层 隐 藏 层 含 有 50 个 隐藏 单元 。 
b)CNNs®!, CNNs 模型 是 一 种 端 到 端的 学 习 模型 ， 能 自 
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了 0.5%， 而 平均 错误 率 ER 降低 了 0.01。 虽 然 在 婴儿 回声 类 
H, MLA-DCNNs 方法 在 Fl 值 和 错误 率 ER 两 个 指标 上 比 本 
文 的 方法 好 ， 但 是 本 文 提出 的 方法 的 整体 检测 性 能 优 于 
CGRNN-Att 方法 。 此 外 ,在 枪 声 类 中 ，MLA-DCNNEs 方法 在 
Fl 值 和 错误 率 ER 指标 上 均 比 CGRNN-Att 方法 好 ， 因 为 
MLA-DCNNs 方法 采用 了 堆肥 的 注意 力 机 制 ， 堆 县 的 注意 力 
机 制 使 得 不 同 层 次 的 注意 力 感知 特性 随 着 网 络 层 数 的 加 深 而 


= 


动 从 样本 数据 中 学 习 音频 信号 的 特征 ， 并 且 有 利于 提取 音频 
信号 的 高 阶 不 变 特征 。 
c)DenseNet!!?], DenseNet 模型 建立 卷 积 神经 网 络 的 前 层 
与 后 层 之 间 的 密集 连接 。 因 此 ，DenseNet 模型 增强 了 特征 之 
间 的 传递 ， 更 有 效 地 利用 了 特征 并 缓解 了 梯度 消失 问题 。 
d)CGRNN-Att!!7], CGRNN-Att 模型 在 卷 积 门限 循环 神 
经 网 络 基础 上 引入 了 注意 力 机 制 ， 其 增强 了 目标 音频 事件 的 
权重 以 及 抑制 不 相关 的 背景 音频 噪声 。 
e)CapsNet-Att!!®], CapsNet-Att 模型 在 胶 圳 神经 网 络 模 
型 的 基础 上 引入 了 注意 力 机 制 , 其 主要 是 由 门限 卷 积 网 络 层 、 
胶 圳 网 络 层 以 及 注意 力 模块 组 成 ， 详 情 参见 文献 [18]。 
f)Single-Att!!, Single-Att 模型 主要 是 将 多 示例 学 习 模 
型 与 单 层 注意 力 机 制 结合 ， 其 主要 由 三 个 全 连接 层 和 一 个 注 
意 力 模块 组 成 。 
3.5 实验 结果 与 实验 分 析 
本 文 将 MLA-DCNNs 与 其 他 对 比方 法 在 DCASE 2017 任 
务 2 的 开发 数据 集 上 用 网 格 搜索 的 方式 进行 超 参数 调 优 ， 采 
用 其 测试 样 例 进行 测试 ， 得 到 的 实验 结果 如 表 1 所 示 。 由 表 
1 可 知 ， 本 文 提出 MLA-DCNNs 方法 的 平均 Fl 值 比 基准 系 
统 提升 了 10.5%， 平 均 错 误 率 ER 从 基准 系统 0.53 降低 到 了 
0.31。 此 外 ，MLA-DCNNSs 方法 在 婴儿 问 声 、 玻 璃 破碎 声 以 


自 适 应 地 变化 ， 因 此 可 以 在 一 定 程度 上 降低 枪 声 产生 的 混 响 
对 音频 事件 检测 造成 的 影响 。 
由 表 1 可 知 , 本 文 提出 的 MLA-DCNNs 方法 整体 的 性 能 
优 于 CapsNet-Att 方法 。 因 为 本 文采 用 了 一 维 帧 级 检测 的 方 
法 ， 相 比 采 用 二 维 块 级 检测 CapsNet-Att 方法 ， 本 文 提出 的 
帧 级 检测 方法 能 更 有 效 的 检测 音频 事件 的 开始 和 结束 时 间 。 


85 
80 
二 75 
a 
gq 
{0 Baseline —— CNNs 
—+— DenseNet —*— CGRNN-Att 
—— Single-Att —*— CapsNet-Att 
65 
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图 4 Fl (Ee AE 
Fig. 4 Diagram of F-score versus number of iterations 


相 比 单 层次 注意 力 机 制 的 Single-Att 773. MLA-DCNNs 


及 枪 声 等 三 个 类 别 上 F1 值 与 错误 率 ER 均 优 于 基准 系统 。 
此 说 明了 MLA-DCNNs 方法 的 可 行 性 与 有 效 性 。 
表 1 不 同方 法 的 对 比 


Comparison of different method 


Table 1 


Baseline CNNs DenseNet GCRNN-Att CapsNet-Att Single-Att MLA-DCNNs 


方法 


ER Fl/% ER F1/% ER Fl/% ER Fl/% ER Fl/% ER Fl/% ER Fl/% 


BILE 0.67 72 0.42 76.5 0.36 81.2 0.26 88.3 0.32 82.9 0.32 87.6 0.31 83.5 
玻璃 破碎 声 0.22 88.5 0.19 90.6 0.16 91.3 0.16 91.6 0.17 91.1 0.17 90.4 0.13 93.4 
QE 0.69 57.4 0.53 67.2 0.47 73.5 0.54 68.2 0.56 66.7 0.54 65.4 0.49 72.7 


平均 值 0.53 72.7 0.38 78.1 0.33 82 0.32 82.7 0.35 80.2 0.34 81.1 0.31 83.2 


MLA-DCNNs 方法 的 Fl 值 以 及 ER 两 个 指标 均 优 于 
CNNs。 原 因 是 MLA-DCNNs 模型 是 一 种 密集 网 络 结构 ， 这 
得 网 络 层 数 更 深 ， 可 以 更 好 地 提取 音频 信号 的 高 阶 不 变 特 
FE， 因 此 一 定 程 度 缓解 了 背景 噪声 对 音频 信号 的 干扰 。 

引入 多 层次 注意 力 机 制 的 MLA-DCNNs 方法 的 平均 F1 
值 比 DenseNet 方 法 提升 了 1.2%, 平均 错误 率 ER 降低 了 0.02， 
这 说 明 引 入 多 层次 注意 力 机 制 的 DenseNet 网 络 模型 比 未 3 
入 注意 力 机 制 的 模型 的 效果 好 。 此 外 ， 在 婴儿 句 声 类 中 ， 


as 


方法 的 平均 Fl 值 提升 了 2.1%, 平均 ER 降低 了 0.03， 这 说 
明了 多 层次 注意 机 制 比 单 层次 注意 力 机 制 能 更 有 效 地 利用 网 
络 的 中 间 层 神经 元 的 信息 。 
4 表示 随 着 迭代 次 数 的 增加 ，MLA-DCNNs 模型 与 其 
他 的 对 比方 法 在 DCASE 数据 集 上 Fl 值 的 变化 趋势 。 由 图 4 
可 以 看 出 ，MLA-DCNNs 方法 收敛 后 的 Fl 值 比 其 他 几 种 方 
法 高 。 因 此 , 可 以 得 出 引入 多 层次 注意 力 机 制 的 MLA-DCNNs 
方法 有 效 地 提升 了 模型 对 音频 事件 检测 任务 的 建 模 能 力 。 


4 ”结束 语 


本 文 提 出 了 一 种 多 层次 注意 机 制 一 维 DenseNet 端 到 端 
的 网 络 模型 用 于 音频 事件 检测 。 该 模型 使 用 一 维 的 DenseNet 
结构 可 以 有 效 的 检测 音频 事件 发 生 的 起 始 和 结束 时 间 ， 并 且 
通过 引入 多 层次 的 注意 力 机 制 可 以 使 模型 关注 重要 的 目标 帧 
以 及 抑制 不 相关 的 背景 音频 帧 来 缓解 背景 噪声 对 目标 音频 事 
件 的 干扰 问题 。 在 DCASE 2017 任务 2 的 开发 数据 集 上 的 实 
验 结 果 表 明 ， 本 文 提 出 的 方法 的 有 效 性 和 可 行 性 ， 对 基于 深 
度 学 习 的 音频 事件 检测 定 的 贡献 。 在 未 来 的 研究 工作 中 ， 


MLA-DCNNs 相 比 DenseNet 方法 的 错误 率 有 显著 改进 , 原因 
是 婴儿 轿 声 比 其 他 类 别 音 频 事 件 持续 时 间 更 长 ， 注 意 力 机 种 
更 倾向 于 关注 持续 发 生 的 音频 事件 ， 因 此 对 持续 音频 事件 婴 
儿 回 声 的 检测 效果 更 好 。 在 玻璃 破碎 声 类 中 , MLA-DCNNs 
方法 在 错误 率 以 及 了 Fl 值 两 个 指标 上 比 DenseNet 方法 好 ， 原 
对 是 玻璃 破碎 声 与 背景 音频 如 街道 场景 、 咖 啡 馆 场 景 等 噪声 
有 显著 的 区 别 , 而 引入 注意 力 机 制 可 以 增强 目标 事件 的 权重 ， 
同时 抑制 不 相关 的 背景 噪声 ， 这 说 明 注 意 力 机 制 对 与 背景 噪 
声 有 显著 区 别 音 频 事 件 更 有 效 。 

MLA-DCNNs 方法 的 平均 Fl 值 比 CGRNN-Att 方法 提升 


可 以 利用 多 尺度 的 音频 特征 作为 模型 的 输入 特征 对 模型 进行 
改进 。 
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